@MastersThesis{Velame:2020:ObDeCa,
author = "Velame, Vict{\'o}ria Maria Gomes",
title = "Object detection from captive balloon imagery using deep
learning",
school = "Instituto Nacional de Pesquisas Espaciais (INPE)",
year = "2020",
address = "S{\~a}o Jos{\'e} dos Campos",
month = "2020-04-02",
keywords = "object detection, deep learning, convolutional neural network,
remote sensing, captive balloons, detec{\c{c}}{\~a}o de objetos,
aprendizado profundo, rede neural convolucional, sensoriamento
semoto, bal{\~o}es cativos.",
abstract = "The combination of remote sensing and computer vision technologies
have been used to monitor large areas. In order to ensure their
local security. This monitoring requires high temporal and spatial
resolution sensors. Captive balloons with infrared and visible
sensors, like Altave system, can perform a long-term day-night
surveillance with viable cost in comparison with other aerial
vehicles. Altave captive balloon system provides security of large
areas by continuously monitoring people and vehicles, which is
exhaustive for humans due to the large amount of data. To provide
a more efficient and less arduous monitoring, this work developed
a technology based on DL (Deep Learning), more specifically Faster
R-CNN (Region-based Convolutional Neural Network - R-CNN), capable
of detecting people and vehicles in images from captive balloons
infrared and visible sensors. The advantage of CNN object
detectors is their ability to generalize, which make them more
efficient to deal with some captive balloon image features, such
as objects on different points of view, positions and scales. This
work used videos provided by Altave Company (from their captive
balloon system) to manually build two databases containing about
700 images each, one for the infrared and the other for the
visible data. Since training a large CNN from scratch requires a
large database and high computational power, two networks were
fine-tuned from a Faster R-CNN, pre-trained on RGB (red, green,
blue) images. The accuracy, mAP and AR metrics reached on the test
datasets indicates the network high performance. The accuracy was
87.1% for the infrared network and 86.1% for the visible. These
high accuracies demonstrated that a Faster R-CNN pre-trained only
in ordinary RGB images can be fine-tuned to work satisfactorily on
3-band RGB visible remote sensing images and even on 1-band
infrared images, as long as they are properly converted for 3-band
images by repeating the infrared band on the three channels. The
networks satisfactorily detected people and vehicle on images from
Altave captive balloon system. They could detect multiple objects
in an image with a variety of angles, positions, types (for
vehicles), scales, and even with some noise and overlap. They also
presented some mistaken detections caused by splitting parts of
one object into two objects or merging two objects from the same
class in one large object. These types of mistakes are not a
relevant problem for surveillance because it is much more
important to detect the objects than to locate or count them.
RESUMO: A combina{\c{c}}{\~a}o de tecnologias de sensoriamento
remoto com vis{\~a}o computacional tem sido utilizada para
monitorar grandes {\'a}reas, de modo a garantir a
seguran{\c{c}}a local. Esse monitoramento requer sensores de alta
resolu{\c{c}}{\~a}o temporal e espacial. Os bal{\~o}es cativos
com sensores vis{\'{\i}}vel e infravermelhos, como os da Altave,
s{\~a}o capazes de realizar vigil{\^a}ncia diurna e noturna a
longo prazo, com custo vi{\'a}vel comparado com outros
ve{\'{\i}}culos a{\'e}reos. O sistema de bal{\~o}es cativos da
Altave fornece seguran{\c{c}}a para grandes {\'a}reas por meio
do monitorando cont{\'{\i}}nuo de pessoas e ve{\'{\i}}culos,
fun{\c{c}}{\~a}o que {\'e} exaustiva para seres humanos devido
{\`a} grande quantidade de dados. Com o objetivo de proporcionar
um monitoramento mais eficiente e menos {\'a}rduo, neste trabalho
foi desenvolvido uma tecnologia baseada em Aprendizado Profundo,
mais especificamente Faster R-CNN (Region-based Convolutional
Neural Network - R-CNN), capaz de detectar pessoas e
ve{\'{\i}}culos em imagens de sensores infravermelho e
vis{\'{\i}}vel de bal{\~o}es cativos. A vantagem dos detectores
de objetos baseados em CNN {\'e} sua capacidade de
generaliza{\c{c}}{\~a}o, tornando-os mais eficientes para
algumas caracter{\'{\i}}sticas de imagem de bal{\~o}es cativos,
como objetos em diferentes visadas, posi{\c{c}}{\~o}es e
escalas. Este trabalho utilizou os v{\'{\i}}deos fornecidos pela
empresa Altave (do sistema de bal{\~a}o cativo) para criar,
manualmente, dois bancos de dados com cerca de 700 imagens, um
para o infravermelho e a outro para o vis{\'{\i}}vel. Como o
treinamento de uma CNN de grande complexidade desde o
in{\'{\i}}cio requer um banco de dados grande e alto poder
computacional, duas redes foram ajustadas a partir de uma rede
Faster R-CNN pr{\'e}-treinada em imagens RGB (vermelha, verde,
azul). A acur{\'a}cia, m{\'e}tricas mAP e AR alcan{\c{c}}adas
nos conjuntos de dados de teste comprovam o alto desempenho das
redes treinadas. A acur{\'a}cia do sistema foi de 87,1% para a
rede infravermelha e de 86,1% para a {\'o}ptica. Essas altas
acur{\'a}cias demonstraram que uma Faster R-CNN pr{\'e}-treinada
apenas em imagens RGB comuns, pode ser ajustada para funcionar
satisfatoriamente em imagens de sensoriamento remoto
vis{\'{\i}}vel RGB de 3-bandas e at{\'e} mesmo em imagens
infravermelhas de 1-banda, desde que sejam adequadamente
convertidas para imagens 3-bandas atrav{\'e}s da
repeti{\c{c}}{\~a}o desta banda nos tr{\^e}s canais. As redes
constru{\'{\i}}das foram capazes de detectar satisfatoriamente
pessoas e ve{\'{\i}}culos em imagens do sistema de bal{\~o}es
cativos da Altave, sendo capaz de detectar m{\'u}ltiplos objetos
em v{\'a}rios {\^a}ngulos, posi{\c{c}}{\~o}es, tipos (no caso
de ve{\'{\i}}culos), escalas e at{\'e} mesmo com algum
ru{\'{\i}}do e sobreposi{\c{c}}{\~a}o. Eles tamb{\'e}m
apresentaram algumas detec{\c{c}}{\~o}es erradas causadas pela
divis{\~a}o de partes de um objeto em dois objetos ou pela
fus{\~a}o de dois objetos da mesma classe em um objeto maior.
Esse tipo de erro n{\~a}o {\'e} relevante para o monitoramento
com vigil{\^a}ncia devido ao fato de ser mais importante detectar
objetos do que localiz{\'a}-los ou cont{\'a}-los.",
committee = "K{\"o}rting, Thales Sehn (presidente) and Mura, Jos{\'e} Claudio
(orientador) and Bins, Leonardo Sant'Anna (orientador) and
S{\^e}cco, Ney Rafael",
englishtitle = "Detec{\c{c}}{\~a}o de objetos em imagens de bal{\~a}o cativo
utilizando deep learning",
language = "en",
pages = "99",
ibi = "8JMKD3MGP3W34R/428J8UE",
url = "http://urlib.net/ibi/8JMKD3MGP3W34R/428J8UE",
targetfile = "publicacao.pdf",
urlaccessdate = "28 abr. 2024"
}